妻子给小朋友买了一本《英国幼儿字母小词典》,下面是其中"A开头的词汇":
爬取代码如下:
~q~~q~~q~
书名: 英国幼儿字母小词典
购买页面: https://item.jd.com/12280850.html
找到了两组音频内容:
- 第一组的上传时间是2017/07
http://media.dolphinmedia.cn/album/英国幼儿字母小词典·ah单词录音汇总/
- 第二组的上传时间是2019/02
http://media.dolphinmedia.cn/album/yingguoyouerzimuxiaocidian%EF%BC%88new%EF%BC%89/
~q~~q~~q~
import requests
import lxml.html
url = ~q~http://media.dolphinmedia.cn/album/yingguoyouerzimuxiaocidian%EF%BC%88new%EF%BC%89/~q~
r = requests.get(url,timeout=1)
element_tree = lxml.html.document_fromstring(r.content,timeout=3)
urls = element_tree.xpath(~q~//audio/a/@href~q~)
for url in urls:
file_name = url.rsplit(~q~/~q~,1)[-1]
with open(file_name,~q~wb~q~) as fin:
mp3 = requests.get(url,timeout=3)
if mp3.ok:
fin.write(mp3.content)
else:
print(f~q~{file_name}:{mp3.status_code}~q~)
声明:该文观点仅代表作者本人,加国头条 属于信息发布平台,加国头条 仅提供信息存储空间服务。
0 Comments